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У статті розглянуто метод трансформації дерев граматики складових у дерева граматики 
залежностей, який використовується для перекладу речень української словесної мови у речення 
анотованої української жестової мови. Зроблено граматичний розбір корпусу речень «Українська 
словесна мова» та побудовано дерева граматичного розбору цих речень (дерева граматики складових). 
Описано кроки алгоритму трансформації дерев граматики складових у дерева граматики залежностей 
для речень української словесної мови. 
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Вступ 

Розроблення та вивчення способів комп'ютерного опрацювання речень та 
побудова їх синтаксичної структури є актуальним завданням сьогодення. Для опису 
синтаксичної структури речення можна або виділити в ньому складові - групи слів, що 
функціонують як цілісні синтаксичні одиниці, або вказати для кожного слова ті слова, 
які йому безпосередньо підпорядковані. У першому випадку використовується 
граматика складових і будується дерево складових, у другому випадку викори- 
стовується граматика залежностей 1, відповідно, будується дерево залежностей. 

Побудова та комп'ютерне представлення синтаксичної структури речень часто 
використовується у системах машинного перекладу на основі правил та на основі 
онтологій. На вхід системи машинного перекладу подається речення, яке проходить 
граматичний аналіз з використанням граматики складових. В результаті синтаксичного 
аналізу будується дерево синтаксичного розбору цього речення (дерево граматики 
складових). Використання граматики складових вимагає перетворення дерева розбору у 
граматику залежностей для подальшого застосування системи правил перекладу. 

Постановка проблеми 

Машинний переклад української словесної мови (УСМ) на анотовану українську 
жестову (УЖМ) та навпаки поділяється на декілька етапів, а саме: граматичний розбір 
речень (в результаті чого будується дерево складових), трансформація дерева складо- 
вих вхідного речення у дерево залежностей згідно з алгоритмом трансформації, пере- 
творення дерева залежностей у речення анотованої УЖМ з використанням правил пере- 
кладу на жестову мову, правил порядку слів у реченнях відповідно до граматики УЖМ. 
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Оскільки під час граматичного аналізу речень УСМ будується дерево граматики 
складових, потрібно розробити алгоритм трансформації дерев граматики складових 
(граматичного розбору) у дерева граматики залежностей. 

Для практичного втілення цього алгоритму необхідно описати правила 
визначення головної складової у дереві граматики складових та описати послідовність 
кроків для трансформації дерева складових у дерева залежностей для усіх типів речень. 

Авторами досліджено застосовність розробленого алгоритму трансформації дерев 
граматики складових у дерева граматики залежностей на корпусі речень «Українська 
словесна мова». 

Аналіз останніх досліджень та публікацій 

Автоматичний аналіз речень все частіше застосовується для розв'язання 
широкого кола лінгвістичних задач, таких як машинний переклад, видобування 1 пошук 
інформації (1). Існує два основних підходи до аналізу структури речення: підхід на 
основі граматики залежностей і підхід на основі граматики складових. 

Результатом синтаксичного аналізу речення є дерево синтаксичного розбору, яке 
відповідає граматиці залежностей. Дерева граматики залежностей переважно 
використовуються для мов із вільним порядком слів (наприклад, в українській), а 
дерева граматики складових - для мов з строго визначеним порядком слів (наприклад, в 
англійській, українській жестовій мові). 

Перетворення дерева граматичного розбору із застосуванням граматики 
складових до дерева синтаксичного розбору вимагає застосування додаткових 
алгоритмів, які визначають головні складові мовних конструкцій та будують на їх 
основі дерева розбору. 

Синтаксичний аналіз речень української словесної мови у вигляді дерев 
залежностей досліджено у роботах Н. Дарчук |2|, М. Лангенбах |3| та ін. У роботі |2| 
розроблено програмне забезпечення, яке протестовано на корпусі української мови, 
який містить 650 тис. речень. У роботі |3| наведено алгоритм автоматичного 
моделювання структури речення в термінах граматики залежностей та описано 
формалізацію правил установлення зв'язків у реченні та їх автоматизацію. Автором 
наведено основні переваги та недоліки обраного алгоритму. Проте у відкритому 
доступі відсутні тестові корпуси та програмна реалізація наведених алгоритмів. 

У роботі (|4| російських вчених А. Антонова та ін. розроблено синтаксичний 
аналізатор для російської та англійської мов, використовуючи граматику залежностей. 
На вхід синтаксичного аналізатора подається файл з текстом російською або 
англійською мовою. Опрацювання тексту складається з таких етапів: розбиття тексту 
на речення і слова, морфологічний розбір, синтаксичний розбір, інтерпретація 
результатів синтаксичного розбору. 

У роботі (5| наведено три алгоритми трансформації дерева залежностей у дерево 
складових для англійської мови та проведено їх застосовність на корпусі речень Репп 
Тгеебапк |6|, для яких побудовано синтаксичну структуру розбору. Найкращий 
результат трансформації дерева отримано за допомогою алгоритму Мо3. 

Алгоритм трансформації дерева складових у дерево залежностей для англійської 
мови описано у роботі |7|, який дав змогу зменшити кількість помилок розбору на 2390. 

У роботі |8| подано новий алгоритм для перетворення дерева залежностей у 
дерево складових. Даний алгоритм досягає 90,95 розбору для речень англійською 
мовою і 82,4Уб розбору для речень китайською мовою. 

Основні правила визначення головної складової у дереві складових описані у 
роботі (1. Наведено алгоритм трансформації дерева складових у дерево залежностей та 
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проведено тестування даного алгоритму на 232 реченнях. Алгоритм трансформації 
позначає відношення між різними складовими дерева складових і перетворює його у 
дерево залежностей. Запропоновані іноземними вченими алгоритми не можуть бути 
застосовані для речень української мови, оскільки не враховують специфіку 
граматичного розбору флективних мов, до яких відноситься українська мова. 

Алгоритм трансформації дерева складових у дерево залежностей 

Після граматичного розбору речення виконують трансформацію дерева складових 
цього речення у дерево залежностей згідно з алгоритмом трансформації, поданого у (1. 
Як для дерев граматики залежностей, так 1 для дерев граматики складових важливим є 
поняття «головна складова» (англ. «реай»). Для дерев граматики складових головною 
складовою позначається головне слово у виразі і від цього слова залежать усі інші 
слова виразу. Ядром алгоритму є визначення головної складової кожного виразу для 
дерев граматики складових і встановлення зв'язку з головною складовою його 
батьківського вузла. Головною складовою для кожної іменникової групи (ГРУПА 
ІМЕННИКА) є вузол ІМЕННИК або ЗАЙМЕННИК в цьому вузлі ГРУПА ІМЕННИКА, 
а головною складовою для дієслівної групи (ГРУПА ПРИСУДКА) є ДІЄСЛОВО. 
Головною складовою для вузла ОСНОВА РЕЧЕННЯ є головна складова ГРУПА ПРИ- 
СУДКА, якщо ОСНОВА РЕЧЕННЯ є простим реченням, та головна складова ГРУПА 
ПРИСУДКА головного речення, якщо ОСНОВА РЕЧЕННЯ є складним реченням. 

Крім того, для кожного вузла дерева складових речення визначається 
семантичний атрибут. Зазвичай цей атрибут копіюється з головної складової піддерева 
дерева складових речення. Винятком можуть бути усталені вирази, в яких значення слів 
не відповідають значенню цілого виразу. 

Правила визначення головної складової в деревах граматики складових такі: 

1) головна складова вузла ГРУПА ПРИСУДКА або ОСНОВА РЕЧЕННЯ є кореневим 
вузлом (коренем) у дереві граматики залежностей; 

2) якщо вузол ОСНОВА РЕЧЕННЯ є батьком ГРУПА ПРИСУДКА, то всі ГРУПА 
ІМЕННИКА, які є нащадками вузла ОСНОВА РЕЧЕННЯ, також є 
залежними від цього кореня; 

3) головними складовими вузлів ГРУПА ІМЕННИКА, ПРЯМИЙ ДОДАТОК, 
ДОДАТОК, є вузол ІМЕННИК або ЗАЙМЕННИК. Усі решта вузлів, які входять у 
ГРУПУ ІМЕННИКА, ПРЯМОГО ДОДАТКА, ДОДАТКА, зокрема ПРИКМЕТНИКИ є 
залежними від них; 

4) головною складовою вузла ГРУПА ПРИСУДКА є вузол ДІЄСЛОВО. Якщо вузол 
ГРУПА ПРИСУДКА містить ДОПОМІЖНЕ ДІЄСЛОВО, то воно залежить 
від ДІЄСЛОВА; 

5) головною складовою вузлів ОБСТАВИНА МІСЦЯ, ОБСТАВИНА ЧАСУ, 
ОБСТАВИНА МЕТИ, ОБСТАВИНА ПРИЧИНИ, ОБСТАВИНА УМОВИ, 
ОБСТАВИНА СПОСОБУ ДІЇ, ОБСТАВИНА ДОПУСКУ, ОБСТАВИНА 
МІРИ, які виражені: 

а) іменником з прийменником є ПРИЙМЕННИК; 

6) дієприслівниковим зворотом є ДІЄПРИСЛІВНИК. 

Блок-схему алгоритму трансформації дерева складових у дерево залежностей 
зображено на рис. 1. 
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Початок 


Позначити всі вершини дерева, головна складова яких відповідає 
кореневій вершині, рухаючись за головною складовою, починаючи 
від кореня дерева. 


Утворити з позначених вершин одну вершину дерева залежностей. 


Для всіх піддерев, дочірніх до позначених вершин, рекурсивно 
виконати процедуру перетворення. 


Приєднати перетворені піддерева до кореневої вершини. Позначити 
зв'якок як неузгоджений, якщо слова в ньому не можуть виступати 
в реченні як головне і залежне. 


Виправити неузгоджені зв'язки методом пошуку вшир у дереві 
залежностей. 


Рис. 1. Блок-схема алгоритму трансформації дерева 
складових у дерево залежностей 


Алгоритм трансформації визначає відношення нащадок-батько для вузлів дерева 
граматики складових і перетворює його на дерево граматики залежностей. Просу- 
ваючись по відношенням нащадок-батько від вузлів-листків до вузла-кореня дерева, ми 
можемо позначити кожен вузол тегом «головна складова». Цей алгоритм дає змогу ви- 
значити головну складову для кожного вузла дерева і відповідно залежну складову 
цього вузла, яка підпорядковується головній складовій. Просуваючись по дереву скла- 
дових вверх, ми отримаємо головну складову всього речення (кореня дерева). 

Для кожної неузгодженої залежності здійснюється пошук вшир у дереві 
складових, починаючи від її батьківського вузла, для того щоб знайти слово, від якого 
неузгоджена складова може бути залежна. 

Наведений алгоритм дає змогу перетворити дерева граматичного розбору, які 
отримані за допомогою парсеру ОКгРагєег |9|, на дерева залежностей. Після цього 
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можна перекладати речення української словесної мови на українську жестову мову та 
навпаки, використовуючи основні правила граматики | 10). 

На рис. 2 подано дерево складових, яке будується в процесі роботи парсеру 
ОКкгРагєег, а на рис. 3 зображено результат роботи алгоритму та його основні етапи 
(визначення головної складової кореня дерева) для речення: «Гарні студенти прийшли 
сьогодні на пари». Визначення головної складової речення зображено 
потовщеними лініями. 


1 етап 5 (прийти) 
| 1.0 
ОСНОВА РЕЧЕННЯ 
Р 
ГРУПА ПІДМЕТА ГРУПА ПРИСУДКА 
(студент) (прийти) 
1.0 
| 10 
ГРУПА ІМЕННИКА ГРУПА ПРИСУДКА АРМ 
(студент) (прийти) | 
1.0 
1.0 1.0 
1.0 1.0 
ОБСТАВИНА МІСЦЯ 
прикметник ГРУПА йере аа АТХ . бю 
(гарний) ІМЕННИКА Р ковогодні) ДОДАТОК 
(студент) о 1.0 (пара) 
1.0 
10 дієслово прислівник 
іменник (прийти) (сьогодні) ГРУПА ІМЕННИКА 

(студент) (пара) 
19 1.0 
іменник 
чо 
Гарні студенти прийшли сьогодні на пари 


Рис. 2. Граматичний розбір та дерево складових речення 
«Гарні студенти прийшли сьогодні на пари» 


На перщому етапі визначається корінь дерева залежностей, який є головною 
складовою ГРУПИ ПРИСУДКА |і є семантичним атрибутом - це дієслово ПРИЙШЛИ 
(ПРИЙТИ). На другому етапі шукаються залежні від дієслова вузли - в даному 
прикладі це прислівник СЬОГОДНІ. І це слово-вузол ставиться на рівень нижче від 
кореня дерева залежностей. На цьому ж етапі шукаються ГРУПА ПІДМЕТА, всі 
ДОДАТКИ (прямі чи непрямі) та ОБСТАВИНИ. У них визначаються головні складові 1 
записуються на рівень нижче від кореня дерева залежностей. Наприклад, для речення, 
що зображене на рис. 3: 

1) головна складова вузла ГРУПИ ПІДМЕТА - іменник СТУДЕНТИ; 
2) головна складова вузла ОБСТАВИНА МІСЦЯ - прийменник НА. 
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Рис. 3. Етапи визначення головної складової у дереві складових для речення 


«Гарні студенти прийшли сьогодні на пари» 


На третьому етапі шукаються усі залежні слова у ГРУПІ ПІДМЕТА, ДОДАТКА 
та ОБСТАВИНИ |і ставляться на рівень нижче від їхніх вузлів-батьків. В даному 
прикладі залежний вузол у ГРУПІ ПІДМЕТА - це прикметник ГАРНІ, а залежний 
вузол у ОБСТАВИНА МІСЦЯ - це іменник ПАРИ. 
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Так, можна побудувати дерева граматики залежностей. Згідно з описаним 
алгоритмом дерево граматики залежностей для речення «Гарні студенти прийшли 
сьогодні на пари» зображено на рис. 4. 


Чо ро Сьогодні | 
Студенти ) а УВо С 


й Гарні 2 й Пари й 


Рис. 4. Дерево граматики залежностей для речення 
«Гарні студенти прийшли сьогодні на пари» 


Оскільки порядок слів в українській словесній мові не строго визначений, то 
речення «Гарні студенти прийшли сьогодні на пари», «Студенти гарні сьогодні на пари 
прийшли» та «Студенти сьогодні гарні на пари прийшли» будуть однакові за змістом. 

Розглянено приклад речення з незвичайним порядком слів «Моя донька у садок 
ходить дитячий», дерево складових якого зображено на рис. 5. 
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Рис. 5. Дерево складових речення з незвичайним порядком слів 
«Моя донька у садок ходить дитячий» 
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У цьому реченні без використання наведеного алгоритму визначення головної 
складової і трансформації у дерево залежностей слово «дитячий» є залежним від слова 
«ходить» (рис. 6). 


Ходить 
б у ле 
онька Зам з 
за 4 Ар ззарідна 
о Садок | 
Моя з по 


Рис. 6. Некоректне дерево граматики залежностей для речення 
«Моя донька у садок ходить дитячий» 


Враховуючи правила української мови про іменникове словосполучення, 
прикметник «дитячий» є залежним від іменника «садок». Оскільки у алгоритмі 
трансформації на останньому кроці передбачено виправлення неузгоджених зв'язків 
методом пошуку вшир у дереві залежностей, то для слова «дитячий» буде знайдено 
найближче слово «садок», яке може бути батьківським до слова «дитячий» у дереві 
залежностей. Коректне дерево граматики залежностей для речення «Моя донька у 
садок ходить дитячий» зображене на рис. 7. 


Ходить 
кре | У 
Донька Б 
кре Садок 
Моя с і 'ят 
Дитячий  ) 


Рис. 7. Коректне дерево граматики залежностей для речення 
«Моя донька у садок ходить дитячий» 


Аналіз результатів 

Розроблений алгоритм перетворення дерева складових на дерево залежностей 
протестований на 300 реченнях корпусу «Українська словесна мова». Результати 
тестування алгоритму трансформації дерева складових у дерево залежностей показали 
високу ефективність застосування цього алгоритму. Правильно перетворено 9290 
речень корпусу, що на 390 більше, ніж при перетворенні без використання останнього 
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кроку алгоритму виправлення неузгоджених зв'язків методом пошуку вшир 
у дереві залежностей. 

Алгоритм визначення головної складової у дереві складових добре працює на тих 
реченнях УСМ, у яких чітко визначено порядок слів. Проте, є випадки, що під час 
розбору не завжди можна прикріпити залежні слова до головної складової. Наприклад, 
коли у реченні присудок є складеним. 

Висновки 

У статті досліджено метод трансформації дерев граматики складових у дерева 
граматики залежностей, який використовується для перекладу речень української 
словесної мови у речення анотованої української жестової мови. Описано кроки 
алгоритму трансформації для речень української словесної мови. 

Проведені дослідження застосування алгоритму трансформації на реченнях 
української словесної мови показали високу ефективність цього алгоритму (92 90 
правильно перетворених речень) та можливість його використання в системах 
машинного перекладу. Також зазначено недоліки алгоритму, а саме некоректне 
перетворення речень, у яких не має чітко визначеного порядку слів. Наступним 
дослідженням стане вдосконалення алгоритму трансформації для 
підвищення його ефективності. 
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КЕ5ОМЕ 

О.У. І отупзка, М.У. Раууадоу, У.У. Разіспипук 

Тгапяїогтайоп ої соп5бішшепсу ігее5 во дерепдепсу ігеез бог рагзіпе пікгаїпіап 5епіепсеє 

Тре тешоа ої сопуегіїпе соп5ійшепсу 5ігисішге (о дерепдепсу 5ігисіитез Шаг и5іпє Їог 
іапзіайоп ої ОКгаїпіап 5роКеп Іапецаєє їпіо аппоіаїед ЮКгаїпіап 5ієп Іапеиаєе 15 
соп5ідегеа їп ре агіїсіеє. ТРре раг5іпе ої 5епіепсез ої согрога "ОЖгаїпіап 5роКеп І апецаєе" 
аге таде апа ре раг5іпє (гее5 ої їБіз5 зепіепсе5 аге Бишй. Тре 5іер5 ої Фе шап5їогтайоп 
аїбогіййт ої ОКгаїпіап зроКеп Іапбцаєє аге Фезсгібед. 

Тре сопзігисйбоп апа сопарикег герге5епіайоп ої Фе 5упкасіїс 5ігисіиге ої 5епіепсез аге 
ойбеп иц5ей їп паспіпе ітап5іайоп 5убіетзя Базед оп гиіе5 апа Ба5ей оп опіоіобіез. Аз іприї, 
Фе паасріпе (гапзіайоп 5узіет гесетуса Ше раг5іпе 5епіепсе ц5іпе соп5ійшепсу ргаттаг. Д5 
а гезиії ої раг5іпє 5епіепсе Ше раг5іпє їгее 15 Бий (соп5йкшепсу 5ігисіиге). Бог ПиПег 
аррійсайоп ої Ше гиіе5 ої (гапзіайоп Їгогі ЮКгаїпіап 5роКеп Іапєцаєє їпіо аппоїаїса 
Окгаїпіап 51єп Іапецаєе 10 15 пеед (о сопуегіїпе соп5ішепсу 5(гисіиге іо Ферепдепсу 5иписішев. 

Тре аїбогійт ої ігап5їогілайоп ої соп5йішепсу 5(гисіиге (о Ферепдепсу 5ігисійге5 
іезггд оп 300 з5епіепсе5 ої согрога "ЮКгаїпіап З5роКеп ГІапецаєв". Тебі гезиів ої 
сап5огтайоп Па5 5помеа Бієп еббсіепсу ої (різ аїєогіїрта (9290 сопесйу (гапявоптеай 5епіепсев). 

Тре аїдогійт ої ігап5їогіпайоп ої соп5йішепсу 5(гисіиге (о Ферепдепсу 5ігисійге5 
ууогК5 ме! оп Шо5е зепіепсез, у/рісі сіеагіу дейпед Ше мога огаег. Трі58 ргобіет сап Бе 
5оЇмед Бу аддаїпє пему гиіе5 Їог раг5іпе 5епіепсе5 іп уупісп Ше мога огдег 15 пої 5ігісіТу 
дейпед. А Тигірег 5(ер соці Бе іо ехіепа Ше гиіез Їог рагзіпе 5епіепсе5 (о ітргоує Ше 
ейсіепсу ої (гап5їогтайоп аїєогіт. 
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